查看原文
其他

提升大模型训练速度近五成,Centauri助推算力高效应用

Shanghai AI Lab 上海人工智能实验室
2024-12-31

大模型训练如何再提速?基于优化计算框架Centauri,模型训练有望加速近五成。


由上海人工智能实验室(上海AI实验室)与香港中文大学、北京大学联合团队提出的大模型计算优化框架Centauri,在海内外顶会屡获大奖,先后获计算机体系结构支持国际会议(ACM ASPLOS)、中国算力大会(CCPC)颁发最佳论文奖。

近日,上海AI实验室凭借优化计算框架Centauri,在郑州召开的2024中国算力大会上获颁“算力中国·最佳学术论文奖”

论文标题:Centauri: Enabling Efficient Scheduling for Communication-Computation Overlap in Large Model Training via Communication Partitioning

论文链接:https://dl.acm.org/doi/10.1145/3620666.3651379

作为涵盖体系结构、编程语言、操作系统等多个专业领域的国际顶尖学术会议之一,ACM ASPLOS的录用代表着相关专业研究的国际顶尖水平,其评选出来的最佳论文更是代表了当年度具有重大创新价值和技术突破性的学术成果。

中国算力大会由工业和信息化部发起,为首个聚焦算力领域的国家级会议。大会每年征集并评选出“最佳学术论文”,涵盖通用算力智能计算、算力应用等领域,旨在表彰算力技术突破,推广应用赋能。两获“最佳论文”殊荣,展现了实验室在AI训练与计算系统构建方面的技术积淀。
在题为《Centauri: Enabling Efficient Scheduling for Communication-Computation Overlap in Large Model Training via Communication Partitioning》(通过通信切分实现大模型训练中通信计算重叠的高效调度)的论文中,上海AI实验室提出以“通信切分+重叠调度”为主要策略的通信-计算覆盖优化框架Centauri,基于该框架,当前主流大模型可实现训练速度提升45%。
CCPC评审专家认为,Centauri针对“通信是负载在设备群上的映射变换”这一模型训练任务特点,构造出了全面且能够系统化探索的切分空间和调度层级,从而实现了算力相关研究的重要突破。
ACM ASPLOS最佳论文获奖证书
当前,大模型训练通常采用混合并行的方法,即把多种通信集合集成到分布式分区图中。在此过程中,降低通信延迟对提升训练速度尤为关键。现有方法主要通过通信与计算重叠来减缓通信延迟,该方法倾向于依赖细粒度的内核融合和有限的操作调度,但却使异构训练环境下的训练提速受到限制。
针对大模型训练过程中巨大的通信成本和延迟,Centauri通过原语替换、拓扑感知与工作负载三个固有抽象维度的划分空间,将混合并行训练中的调度任务分解为操作、层级和模型三个层次,从而有效降低了通信延迟,达成多种分布式训练方法并行配置下的算力高效应用。
Centauri框架图
目前,人工智能软硬件的研究齐头并进:一方面,趋于成熟的基础软件体系、紧密协同的上层软件生态、有效衔接的下游价值链闭环已初步形成;另一方面,人工智能硬件相关产业链快速发展,涵盖了计算芯片、开源平台、基础应用、行业应用及产品等环节。
面向通用智能和交叉学科的发展,上海AI实验室持续布局新一代AI训练与计算系统构建,打造具有广泛包容性的AI计算与编译体系,定义全新的训练系统编程范式,探索模型训练的能效极限,应对通用智能与超大规模科学计算融合的需求。
由实验室构建的浦源·DeepLink人工智能开放计算体系,通过搭建算力硬件与深度学习软件框架适配的桥梁,共建开放的软硬件适配生态,实现人工智能训练框架与底层硬件架构间的解耦。并针对大模型训练场景,突破多维度并行、长文本和自适应训练技术,显著提升训练能效,从软、硬件两方面共同助力人工智能技术突破。
继续滑动看下一个
上海人工智能实验室
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存